R (tidyverse) の使い方

R のパッケージである tidyverse を使用すると、データの読み込み、変形、出力が簡単になります。特に、これから R を始められる方は、最初から tidyverse を使用した書き方で始める方が分かりやすいと思います。(細かいところは、従来のデータフレームの知識や書式が必要になるかもしれませんが。)

tidyverse を利用したコードのイメージ。

library(tidyverse)

input_data <- read_tsv("input_data.tsv")
meta_data  <- read_tsv("meta_data.tsv")

output_data <- input_data %>% inner_join(meta_data)
write_tsv(output_data, "output_data.tsv")

これだけのコードで、タブ区切りテキスト(TSV)形式のファイルを読み込んで、同じ列名のIDをキーに2つのテーブルを結合して、TSV形式で出力することができます。

短いコードで書くことができ、読みやすい表現が可能なことで、コードのメンテナンス性が良くなります。(多少、冗長な表現であったとしても、わかりやすい方が、後でコードを見返したときに困りません。)

single cell の解析に用いられているパッケージの Seurat など、最近のパッケージは、tidyverse をベースに使用しているため、R の従来の表現から、今後、tidyverse を使った新しい表現に切り替えていくことをお勧めします。

 

投稿者:

Atsushi Doi

株式会社セルイノベーター、主任研究員。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。